检索结果

Select

1. 基于网页源码结构理解的自适应爬虫代码生成方法

刘耀, 刘茹, 翟雨

《计算机应用》唯一官方网站 2023, 43 (6): 1779-1784. DOI: 10.11772/j.issn.1001-9081.2022060929

摘要（322）

HTML （20）

PDF （1224KB）（115）

针对网页频繁改版带来的网页源码变动，尤其是文章日期、正文或来源机构等网页源码中目标实体的元素结构或属性标识变动所引起的爬虫代码失效、人力维护成本过高的问题，提出一种基于网页源码结构理解的自适应爬虫代码生成方法。首先，通过分析网页结构特征变动规律提取相应爬虫代码；然后，利用Encoder-Decoder模型表征网页源码及代码的变动，通过融合网页源码自身结构语义特征、网页源码变动特征及网页代码变动特征，得到自适应代码生成模型；最后，完善自适应系统的感知、生成和激活机制，从而形成具有自适应处理能力的爬虫系统。经实验验证，所提自适应代码生成模型的最终准确率为78.5%，与TF-IDF+Seq2Seq和TriDNR+Seq2Seq两种生成模型相比，所提模型在网页源码变动的表示和代码生成的有效性上具有一定的优越性。因此，所提方法能够解决网页源码变动引起的爬虫代码运行问题，为网络资源获取即爬虫技术的自适应处理能力提供新思路。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 面向业务需求的算法路径自组配模型

刘耀, 童昕, 陈一风

《计算机应用》唯一官方网站 2023, 43 (6): 1768-1778. DOI: 10.11772/j.issn.1001-9081.2022060944

摘要（192）

HTML （5）

PDF （1992KB）（60）

算法平台作为自动机器学习的实现方式近年来受到广泛关注，然而这些平台的业务流程均需要人工搭建，且这些平台存在模型调用不灵活以及无法针对特定业务定制化的自动算法构建的问题。针对这些问题，提出了一种面向业务需求的算法路径自组配模型。首先，基于图卷积网络（GCN）与word2vec表示对代码的序列特征与结构特征同时建模；然后，进一步通过聚类模型发现算法集合中的功能，并基于得到的功能子集为子集间算法组件的路径发现作准备；最后，基于先验知识训练得到关系发现模型与排序模型，挖掘候选代码组件的自组织路径，从而实现算法代码自组配。使用所提评价指标进行对比分析，所提模型的最好结果为0.8，而Okapi BM25+word2vec基线模型的最好结果为0.21。所提模型在一定程度上解决了传统代码表示方法中代码结构与语义信息缺失的问题，并为精细化算法流程自组织和算法管道自动构建的研究奠定了基础。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 有效的哈希冲突解决办法

张朝霞刘耀军

计算机应用 2010, 30 (11): 2965-2966.

摘要（1132）

PDF （493KB）（1161）

为了提高解决哈希冲突的效率,在冲突解决机制和数据元素被查找的先验概率的基础上,结合堆排序的优点,提出了一种更有效的处理哈希冲突的方法,称其为以先验概率为基础的哈希大顶堆查找。该方法首先依据关键字被查的先验概率的大小建立相应的哈希大顶堆,然后利用哈希大顶堆进行查找。最后通过严密的效率分析可看出:该方法在最坏的情况下的时间复杂度才为O(n log n),不但降低了冲突时执行查询的查找长度,从而降低查询响应的时间复杂度,而且该方法对于记录数越大的文件越适用。